#modelo de recompensa

Estimación de ventaja basada en representaciones: más que recompensa escalar

GraphAE usa representaciones ocultas del RM para estimar ventajas con grafos. Mejora el RLHF hasta +6.3 en Arena-Hard.

2026-06-10 · 2 min

Estimación de ventaja consciente de representación en RLHF

Descubre cómo GraphAE aprovecha las representaciones ocultas del modelo de recompensa para una estimación de ventajas más precisa en RLHF, mejorando rendimiento hasta +8.27 en AlpacaEval.

2026-06-10 · 2 min

StainFlow: Rastreo de Manchas y Evidencia para Recompensas en Agentes GUI

StainFlow mejora el RL en agentes GUI con un modelo que rastrea manchas de entidades y vincula evidencia, aumentando un 3.2% el éxito en entornos dinámicos.

2026-06-08 · 2 min

SCI-PRM: Un modelo de recompensa de proceso para verificación científica

Descubre cómo Sci-PRM, un modelo de recompensa consciente de herramientas, mejora la verificación científica en biología, química y física.

2026-06-04 · 2 min

Alineando preferencias implícitas profundas mediante razonamiento defensivo

Alinea modelos de lenguaje con preferencias implícitas usando razonamiento defensivo y aprendizaje por refuerzo. CDRA mejora personalización y seguridad.

2026-06-04 · 2 min

Modelos MoE dispersos: expertos interpretables para preferencias personalizadas

Descubre cómo los modelos MoE dispersos aprenden expertos especializados e interpretables para modelar preferencias humanas personalizadas sin coste adicional d

2026-06-04 · 3 min

De noticias extensas a pronósticos exactos: Fusión importancia y reflexión PRM

Descubre cómo fusionar noticias largas con predicciones de series temporales usando modelos de recompensa para mayor precisión.

2026-06-03 · 2 min

Skill-RM: Unificando Criterios Heterogéneos con Habilidades de Agente

Skill-RM unifica criterios heterogéneos usando habilidades de agente para optimizar LLMs en entrenamiento posterior. ¡Prueba el nuevo modelo!

2026-06-03 · 3 min

Mitigando el sesgo perceptual en LLMs multimodales como jueces

Descubre cómo un nuevo método de perturbación perceptual y modelado de recompensa corrige el sesgo en evaluaciones de LLMs multimodales. Más preciso y alineado con humanos.

2026-06-02 · 1 min

Latent Reward Steering: Marco Adaptativo para Comportamientos Cognitivos en LLMs

Descubre cómo Latent Reward Steering optimiza el razonamiento de LLMs al promover comportamientos cognitivos implícitos.

2026-06-02 · 3 min

CARE-RL: Mitigando Conflictos entre Dominios con RL Consciente de Capacidades

Descubre cómo CARE-RL mitiga conflictos entre dominios en LLMs con aprendizaje por refuerzo consciente de capacidades, con resultados superiores en benchmarks.

2026-06-02 · 2 min